ROCm e HIP: Um Tutorial Detalhado de 10 Capítulos: A Mudança de Mentalidade da Sincronização do GPU

A transição fundamental em computação de alto desempenho envolve passar de um modelo de execução serial centrado no CPU para um modelo de produtor-consumidor desconectado, onde o CPU gerencia a pipeline enquanto o GPU opera de forma independente. A principal conclusão é que o GPU não foi feito para ser controlado como um dispositivo estritamente síncrono; tratá-lo assim cria um gargalo de "parar-e-esperar".

1. O Ciclo de Vida do Fluxo de Trabalho

Numa mentalidade assíncrona, o desenvolvedor não espera que cada tarefa termine. Em vez disso, eles alocam memória, lançam kernels, e copiam de volta resultados colocando solicitações não bloqueantes numa fila de hardware.

2. Superando Estagnações

Quando o host é obrigado a sincronizar depois de cada operação, a lacuna de execução—o tempo de viagem entre CPU e GPU—domina o desempenho. Ao utilizar assincronia, o CPU continua trabalhando enquanto o GPU processa sua stream, maximizando a saturação do hardware.

$$\text{Tempo Total} = \max(\text{Trabalho do CPU}, \text{Trabalho do GPU}) + \text{Carga de Sincronização}$$

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

QUESTION 1

Which set of steps correctly converts a synchronous vector-add to use an explicit stream?

Call hipStreamCreate, use hipMemcpyAsync with the handle, and pass the handle as the 4th kernel argument.

Call hipDeviceSynchronize after every kernel launch and use hipMemcpy.

Set the stream parameter to NULL in all hipMemcpyAsync calls.

Replace hipMalloc with hipHostMalloc exclusively.

QUESTION 2

Why is a GPU considered 'not meant to be driven as a strictly synchronous device'?

Because it has no internal clock.

Because waiting for the CPU to confirm every command leaves thousands of cores idle.

Because memory transfers cannot be tracked by the CPU.

Because the GPU must manage its own power state.

QUESTION 3

What is the primary risk of forcing the host to synchronize after every operation?

Memory corruption.

Host-side stalling and loss of hardware saturation.

Increased power consumption on the GPU.

Kernel compile errors.

QUESTION 4

In the logistics warehouse analogy, what does the 'Conveyor Belt' represent?

A HIP Stream.

The GPU Driver.

The CPU Cache.

The VRAM buffer.

QUESTION 5

True or False: hipMemcpyAsync returns control to the CPU before the data transfer is complete.

True

False